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基于 事务 映射 区 间 求 交 的 高 效 频繁 模式 挖掘 算法 


Xo ERES E WU 
(广东 工业 大 学 a 计算 机 学 院 ;b， 自动 化 学 院 ， 广州 510006) 


摘 要 : 关联 规则 挖 据 是 数据 挖 据 重 要 研究 课题 ， 大 数据 处 理 对 关联 规则 挖 据 算法 效率 提出 了 更 高 要 求 ， 而 关联 规则 
挖 据 的 最 耗 时 的 步骤 是 频繁 模式 挖 据 。 针 对 当前 频繁 模式 挖掘 算法 效率 不 高 的 问题 ， 结 合 Apriori 算法 和 FP-growth # 
法 ， 提 出 一 种 基于 事务 映射 区 间 求 交 的 频繁 模式 挖 据 算 法 ITM Cinterval interaction and transaction mapping) ， 只 需要 
车 数据 集 两 次 来 生成 FP 树 ， 然 后 扫描 FP 树 将 每 个 项 的 ID 映射 到 区 间 中 ， 通 过 区 间 求 交 来 进行 模式 增长 。 该 算法 解 
决 了 Apriori 算法 需要 多 次 扫描 数据 集 ，FP-growth 算法 需要 和 迭代 地 生成 条 件 FP 树 来 进行 模式 增长 而 带 来 的 效率 下 降 
的 问题 。 在 真实 数据 集 上 的 实验 显示 , 在 不 同 的 支持 度 下 IITM 算法 都 要 要 优 于 Apriori、FP-growth 以 及 PIETM 算法 。 
关键 词 : 数据 挖 气 ; 频繁 模式 ; 事务 映射 ; 区 间 求 交 
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Efficient frequent pattern mining algorithm based on 
interval interaction and transaction mapping 


Wu Lei’, Cheng Lianglun?, Wang Tao? 
(a. Faculty of Computer, b. Faculty of Automation Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: Association rules mining is an important research topic in data mining. Big data processing puts forward higher 
requirements for the efficiency of association rules mining algorithm, where the most time consuming step is frequent pattern 


mining. For the problem that the state of art frequent pattern mining algorithm is not efficient, a frequent pattern mining algorithm 


based on interval interaction and transaction mapping (IITM) is proposed, which combines Apriori algorithm and FP-growth 
algorithm. This algorithm just needs to scan the dataset twice to generate the FP tree, and then scan the FP tree to map the ID of 
each transaction to the interval. It growths the frequent pattern by interval interaction and solves the problem that the Apriori 
algorithm needs to scan the dataset multiple times, the FP-growth algorithm needs to iterate to generate the conditional FP tree, 
which reduce the efficiency ofthe frequent pattern mining. Experiments on real dataset show that the IITM algorithm is superior 
to Apriori, FP-growth, and PIETM algorithms at different support. 
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大 ， 这 就 对 关联 规则 挖掘 算法 的 效率 提出 的 更 高 的 要 求 。 影 响 
关联 规则 挖掘 效率 的 一 个 最 重要 的 步骤 是 频繁 模式 挖掘 ， 它 的 

关联 规则 挖掘 是 数据 挖掘 的 一 个 重要 的 部 分 , 它 旨 在 从 大 规模 数 的 是 发 现 数据 当中 多 次 出 现在 同一 条 记录 当中 的 数据 项 。 
据 当 中 挖掘 出 隐藏 的 关系 并 提供 决策 支持 。 关 联 规 则 挖掘 最 早 是 前 国内 外 己 经 有 了 很 多 关于 频繁 模式 挖掘 算法 的 研究 ， 其 中 以 
Agrawal 在 文献 [1] 中 提出 的 ， 它 使 用 关联 规则 挖掘 来 在 商场 购物 篮 ”Apriori 算法 中 和 FP-Growth 呈 算法 最 具 代 表 性 ， 其 他 的 算法 大 
数据 当中 提取 出 有 用 的 信息 ， 决 策 者 根据 这 些 信息 来 制定 商场 ” 多 数 是 基于 这 两 个 算法 改进 的 。 其 中 Apriori 算法 通过 频繁 n-1 
的 销售 策略 。 如 今 关 联 规则 挖掘 已 经 被 应 用 到 了 各 个 领域 如 网 。 “项 集 来 生成 候选 n 项 集 ， 对 于 每 个 候选 n 项 集 ， 它 都 需要 扫描 
站 数据 户 、 硬 件 系统 监测 后 、 车 辆 和 通信 数据 外 等 。 整个 数据 集 来 获取 它 的 支持 度 ， 从 而 判断 该 候选 项 集 是 否 需 要 
的 逐渐 扩展 ， 关 联 规则 挖掘 面 对 的 数据 量 越 来 越 ”被 剪 枝 ， 当 数据 量 非 常 大 的 时 候 多 次 扫描 数据 集 就 导致 该 算法 
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的 效率 低下 。FP-Growth $i 
频繁 模式 树 , 然后 
当 频 繁 模式 树 


E 常 大 的 时 候 和 迭代 生成 条 们 


两 次 数据 集 来 生成 
E 成 条 件 模式 树 来 生成 频繁 项 集 ， 
F 模 式 树 的 开销 会 非常 


Ko 文献 [6] 提 出 了 PIETM 算法 , 它 首 先生 成 FP 树 , 然后 将 FP 


li 


Bs 
用 频繁 n-1 项 集合 并 生成 候选 n HUE, JF 


类 似 Apriori 算法 的 方法 ， 
使 用 生成 该 n 项 集 
间 进 行 求 并 来 生成 n 项 集 的 区 间 集 ， 
n 度 。 但 是 使 用 容 斥 原 


的 两 个 n-1 项 集 所 对 应 的 
接着 使 用 容 


Ix 


理 需 要 获取 候选 项 的 所 有 的 


， 然 后 在 支持 度 表 当中 获取 


P wd 


[a 


们 的 支持 度 。 当 候选 项 较 长 ， 
法 的 消耗 还 是 非常 大 。 
本 文 在 PIETM 算法 的 基础 之 上 提 # 


繁 项 的 数量 较 多 的 时 候 该 算 


IITM ( interval 


interaction and transaction mapping ) 算 法 , IITM 算法 参考 PIETM 


算法 的 事务 


当中 的 项 映射 到 区 间 当 中 ， 与 


PIETM 算法 不 同 的 是 ITM 算法 采用 频繁 n-l 项 集 和 频繁 1 项 


方式 来 4 
候选 项 集 的 
本 文 还 根据 
区 间 集 的 存 
四 个 
比较 ，IITM 算法 在 不 同 的 支持 度 下 都 要 优 于 
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38 


支持 度 是 否 超 过 最 小 支持 度 需 要 青 


点 是 实现 简单 ， 但 是 需要 多 次 扫描 妆 


集结 合 的 方式 来 
成 候选 n 项 集 的 区 间 集 


] 求 交 而 不 是 求 并 的 
法 能 够 直接 从 生成 的 
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按 支 持 度 递减 所 


中 使 用 FP 数组 来 存储 模式 信息 来 
提高 挖掘 效率 ， 同 样 该 算法 在 提高 了 
消耗 。 同 时 FP-Grwoth 也 被 
模式 挖掘 05, 增 量 
不 确定 数据 集 J 
式 挖掘 09]。 上 述 基 了 
法 需要 多 次 扫描 类 
多 需要 在 原始 的 FP-tree 的 


区 间 当 中 获取 其 支持 度 


过 容 斥 原理 来 获取 。 


ITM 算法 的 特点 设计 了 
诸 结 构 ， 以 及 一 种 高 效 的 
E EX} IITM, PIETM,FP-growth,Apriori 算法 进行 


一 种 快速 定位 项 集 对 应 的 
区 间 求 交 的 方法 。 本 文 在 


其 他 算法 。 


国内 外 已 经 提出 的 很 多 频繁 模式 挖掘 算法 。Apriori 算法 首 
来 生成 超过 最 小 支持 度 的 频繁 1- 项 集 。 然 后 
生成 候选 2- 项 集 , 为 了 验证 候选 2- 项 集 的 
描 数据 集 。Apriori 的 优 


昌 集 ， 因 此 有 很 多 方法 被 


先 扫 j 


mt 


提出 来 ， 来 优化 该 算法 。 比 如 文献 [7] 当 中 提出 的 DHP 算法 来 


通过 一 个 哈 希 表 结 构 来 加 速 候选 项 
Apriori 算法 ; 
文献 [8] 当 
中 的 所 有 的 导 


编号 集合 即 可 。 但 
储 的 编号 过 
MapReduce 让 
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9 生成 。 但 没 能 解决 影响 
要 进行 多 次 的 数据 集 扫 描 。 在 


了 一 种 Inter-Apriori 


法 ， 该 算法 对 数据 集 当 
居 集 来 得 到 各 项 频 
描 数据 集 。 由 频繁 n- 
并 对 应 的 频繁 n-1- 项 集 的 事务 


虽 时 有 一 定 优势 ， 但 仍然 没 
。 文 献 [11] 中 提出 了 


工 Miner 算法 ， 该 算法 主 
数组 结构 来 存储 数据 
也 扩展 到 了 其 他 的 


"1 ^l 
gums, 


务 的 关系 以 提高 挖 扣 
场景 和 


可 


采用 这 种 算法 需要 存 
E 特 别 大 。 在 文献 [9,10] 在 
XX f Apriori 的 并 行 化 算法 ， 在 处 理 海 
触动 Apriori 算法 的 本 质 缺 


SEEDS LA 
着 当中 的 项 和 
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FP-Growth 算法 只 需 扫 
E. 98 DOSE S 


次 数据 集 ， 第 一 次 扫描 获取 频 
PF 的 非 频 繁 项 去 掉 ， 将 剩 下 的 项 


F 序 然后 插入 FP 树 当 中 。 
式 生 成 条 件 模 式 树 来 生成 频繁 项 集 , 但 是 当 
生成 频繁 模式 树 的 消耗 会 非常 大 。 因 此 有 很 多 算法 被 提出 来 改 
FP 提出 了 IFP-Growth 算法 
E FP-tree E} 
从 而 加 快 了 挖掘 的 率 ， 
赃 更 多 的 信息 ， 
了 FP-Growth 算法， 


进 该 算法 , 在 文献 [13] 当 中 
提出 一 种 新 的 树 结 
生成 的 条 件 模式 树 的 数 
和 FP-Growth 算法 相 比 需要 存 
多 的 内 存 。 在 文献 [14] 
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然后 采 月 
数据 集 较 大 的 时 候 ， 


jE 


日 自 底 向 上 方 


; IFP-Growth 


址 信息 来 降低 


但 是 该 算法 


了 效 地 消除 


此 需要 消耗 更 


在 该 算法 当 


FE 频繁 模式 从 而 
效率 的 同时 会 加 大 内 存 的 


于 在 其 他 的 应 ) 
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的 改进 算 当 


础 上 加 J 


映射 到 高 度 压 缩 的 


项 集 的 区 间 来 获取 支持 度 。 
2 基本 概念 


2.1 问题 定义 
首先 ， 对 问题 进行 定义 ， 频 繁 模式 挖 
三 {i,iz,i3).…,in} 代 表 项 的 集合 ， 


为 一 条 事务 。 


k- 项 集 。 一 个 项 自 


的 数量 占 总 事务 数 的 百分比 。 用 户 指定 


这 些 


场景 如 最 大 频繁 
昌 09 ,最近 加 权 频 繁 模式 挖掘 0 
掘 文献 08,Spark 环境 下 的 频繁 模 
KE 大 多 继承 了 Apriori 算 
， 基 于 FP-Growth 的 改进 算法 大 
上 额外 的 存储 信息 需要 消 
。 本 文 针 对 以 上 问题 提出 ITM 算法 ， 该 算法 只 
昌 集 来 生成 FP-tree, 然 后 扫 
区 间 当 中 。 接 下 来 使 用 


jii FP-tree 将 事务 的 id 
又 间 来 生成 候选 


T 为 I 中 的 项 组 


4& X & T 称 为 一 个 项 集 , WMR X Hy 


系列 的 事务 


的 定义 如 下 : 设 
成 的 集合 ， 称 T 
成 , 1 的 一 个 子 
Ph 包含 k 个 项 , 那么 称 X 为 
的 支持 度 表示 为 sup(X), 它 代表 包含 X 的 事务 


个 最 低 的 支持 度 


minSup, 频繁 模式 挖掘 的 目的 是 找 出 所 有 的 supX) Z minSup 的 


X, 
2.2 FP 树 


FP 树 是 一 种 用 来 


第 储 事务 信 


造 FP 树 时 首 
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次 数据 集 来 获取 所 


将 每 条 事 


掉 ， 将 剩 下 的 项 按 支持 度 递减 排序 后 插入 FP 树 当 中 。 初 始 时 
FP 树 结构 当中 只 有 一 个 根 节点 root, 将 提 
入 到 根 节 点 下 。 设 
第 一 个 项 , P 为 


排序 好 的 事务 为 T[p,P], 其 
下 的 项 ,nodeP 为 存储 项 p 的 节点 。 插 入 函数 
为 insert(TNode), 其 中 T 为 要 插入 的 事务 ，node 为 事务 T 要 插 


F 序 好 的 各 事务 依次 插 


中 op 为 事务 当中 的 


息 的 紧凑 的 树 型 数据 结构 。 构 
的 1 项 集 的 支 
当中 的 非 频繁 项 去 


Er 


入 的 节点 。 如 果 节 点 node 有 子 节点 nodeP 则 将 nodeP 的 计数 


加 1， 如 果 Node 没有 子 节点 nodeP 则 为 node 3j 


nodeP, 将 其 计数 信息 设 为 1. 如 果 P 不 为 空 则 递归 i 
WR P 为 空 则 FP 树 生成 结束 。 使 月 


FP 树 如 图 1。 
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dl 示例 数据 
mande 去 掉 非 频繁 项 按 计数 递减 排 
各 项 的 支持 度 
务 序 
A,D,B D,A,B 
B,C,E E,B 
A,B,D D:5 E:4 A:4 B:3 C2 D,A,B 
A,C,D.E G:l D,A,E 
A,D,E D,A,E 
D,E,G D,E 
图 1 FP 树 的 构造 过 程 
3 “lITM 算法 
本 文 提出 新 的 IITM SEXE, 该 算法 参考 PIETM 算法 中 中 的 事 


务 映射 技术 ， 改 进 候选 项 集 的 生成 、 候 选项 集 的 支持 度 的 获取 
的 方式 以 及 区 间 的 存储 结构 。 
3.1 事务 映射 

ITM 算法 [使 用 事务 映射 技术 , 并 对 
应 ITM 算法 的 模式 增长 过 程 。 事务 映射 } 
点 所 在 事务 编号 映射 到 区 间 当 中 ， 这 检 
需要 迭代 生成 条 件 模式 树 ， 而 是 
取 候 选项 集 的 支持 度 信息 。 在 FP 树 构造 完成 之 后 ， 遍 历 一 
FP 树 来 生成 区 间 信 息 , 区 间 是 一 个 存储 整形 数据 的 线性 
区 间 的 结构 为 [s,e] 其 中 s 代表 区 间 的 开始 编号 , e 代表 区 间 的 结 
束 编 号 。 每 个 节点 的 区 间 和 节点 的 计数 x 相 联系 ,满足 关系 
x=ste-1。IITM 算法 采用 深度 优先 遍历 FP 树 的 方式 来 为 每 个 节 
点 生成 区 间 ， 区 间 的 生成 过 程 满足 以 下 条 件 : 

a) 若 节点 为 其 父 节点 的 第 一 个 子 节点 ， 如 果 
节点 , 那么 该 节点 s=1, 如 果 不 为 根 节点 , 那么 该 

b) 若 节点 不 是 其 父 节点 的 第 一 个 子 节 点 ， 那 
s=prevBrother.e+1 ; 

0) 对 所 有 的 节点 e=s+count-1 ; 


其 结构 进行 改进 以 适 
Ar FP 树 当 中 的 各 个 节 
在 进行 模式 增长 时 就 不 
直接 使 用 对 应 的 区 间 就 能 够 获 


了 


其 父 节 点 为 根 
该 节点 s=father.s; 


么 该 节点 


表 结 构 ， 
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键 值 对 的 结构 存 入 项 集 哈 希 索引 表 索 引 的 项 集 
当 需 要 查询 某 个 频繁 项 外 
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吴 敌 ， 等 : ipsas 


则 列表 信息 ， 基 


区 间 列 表 如 图 2、 表 2 所 示 。 


ITM 算法 需要 多 次 查询 


此 将 


已 生成 


Chi inaX iv 
求 交 的 高 效 


的 频繁 项 集 以 及 其 对 应 的 


频繁 项 集 和 


区 式 来 进行 储存 。 民 


存 其 对 应 的 


项 集 计 算 hash 


区 间 。 为 了 提高 查询 的 效率 , 5 
文 称 该 表 为 项 集 哈 希 索 引 表 )， 根 据 


中 key 储 


其 对 应 的 


存 频繁 项 集 ， 
入 hash 表 结 构 ( 本 


区 间 采 用 键 值 对 


value 


频繁 项 集 的 hash 值 将 这 些 


对 应 的 


区 间 列 表 的 
值 ， 然 后 根据 hash 值 去 项 自 


和 区 间 表 的 位 置 ， 最 后 去 项 集 
于 ITM 算法 使 月 


生成 候选 n f 


Ro 


天 


此 算法 当 


哈 希 索引 表 上 找到 相应 的 


YE 


区 间 储 存 表 当中 ， 


时 候 ， 首 先 根 据 频 


丛 希 索引 表 当 中 
区 间 


表 
多 


的 引用 。 


储存 结构 如 图 3 


Ph， 然 后 在 一 个 线性 


A 


的 时 候 ， 


support-3 


采用 这 种 
的 频繁 模式 的 以 及 其 对 


应 的 


所 示 ， 当 数据 集 当 
储存 结构 能 够 极 大 地 加 快 
区 间 列 表 效 率 。 


着 及 其 对 应 的 


频繁 n-1 项 集 和 频繁 1 项 集结 合 
中 需要 多 次 查询 候选 n-1 
为 了 加 快 查询 的 速度 将 不 同 长 度 的 候选 项 自 
入 不 同 的 hash 表 当 中 


区 间 放 
中 储存 这 些 hash 
中 的 频繁 模式 较 


搜索 已 经 挖掘 出 


图 2 FP 树 当中 构造 的 区 间 的 示意 图 
表 2 根据 图 1 中 的 FP 树 构造 的 区 间 列 表 
项 名 ”区间 计 数 区 间 
D 5 [1,5] 
E 4 [3,4][5,5],[6,6] 
A 4 [1,4] 
B 3 [1,2],[6,6] 


项 自 
的 位 


当 生 成 频繁 1 项 集 的 区 间 列 表 的 时 候 ， 首 先 初始 化 频繁 1 


的 项 集 哈 希 索 引 表 


M, E 


成 一 个 区 


的 项 集 哈 希 索 引 表 ， 然 后 在 项 集 长 度 索 引 表 当 中 的 编号 为 
生成 对 频繁 1 项 集 
i FP 树 为 每 个 节点 生成 区 


的 引用 ， 接 着 扫 
间 ， 计 算 该 节点 


d)father.s Ss Se <father.e; 对 应 项 的 hash 值 ， 根 据 该 hash 值 查找 到 对 应 的 区 间 储 存 表 
其 中 :count 代表 节点 的 支持 度 计数 , father 代表 当前 节点 的 父 节 ” 查看 表 当 中 是 否 存 在 该 项 的 区 间 记 录 ， 如 果 不 存 在 ， 则 为 该 项 
点 ，prevBroteher 代表 当前 节点 的 上 一 个 兄弟 节点 。 在 区 间 索 引 表 当 中 生成 区 间 列 表 ， 并 将 该 项 的 区 闻 揪 入 到 区 间 

名 称 相同 的 节点 的 区 间 储 存 到 同一 个 区 间 列 表 当 中 ， 区 间 ” 表 当 中 。 如 果 存 在 则 将 该 项 的 区 间 插 入 到 已 有 的 区 间 列 表 当 中 ， 
列表 的 结构 为 {support;s1,e1;s2,e2;…;Sn,en} 其 中 support 代表 该 区 ”因为 采用 的 是 深度 优先 遍历 ,所 以 后 生成 的 同名 项 的 区 间 we 的 
间 列 表 集 合 对 应 的 项 集 的 支持 度 , 其 值 满足 support=el-sli+l+ez- —— 值 总 是 要 大 于 先生 成 的 区 间 的 se 值 ， 因 此 插入 时 按 下 列 的 方 


s2+1+...+en-Sntl o RHE 


图 1 当中 的 FP 树 为 每 个 节点 生成 的 


[xi 


Ei 


式 : 
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录用 稿 


设 已 有 的 区 间 列 表 为 {support;s1,e1;s2,e2;.…; sil,eil1}, 待 插入 


的 
插入 后 的 


si>eil 则 插入 后 的 


€i-Si €i] o 


根据 FP 树 生成 


FP 树 根 节点 root, 


输入 : 


if root == null 


return 


3.2 ”候选 项 集 的 生成 


IITM 算法 采用 
能 采用 Apriori 类 算法 的 方式 来 获取 候选 项 
吴 选 项 集 的 方式 有 大 致 两 种 , 一 种 是 使 
n-1- 项 集 来 生成 候选 n- 项 集 ， 更 
一 项 不 相同 的 两 个 频繁 n-1- 项 集 来 生成 候选 n 项 集 。 
频繁 2- 项 集 ab,ac,bc,ad; 生 成 候选 项 集 时 使 用 ab 和 ac,ab 和 ad, 
ac 和 ad 来 生成 ， 生 成 的 候选 3 项 


此 IITM 


d H 


Ke Apriori 
用 两 个 频繁 


S 


bu 


区 间 为 [ssei], 根 据 区 间 的 生成 规则 可 知 si eii. n 


si-ei., 则 


[X [8] 9i] 3€ 73 (support*ei-si-l;síei s2,62;.58i-,ei], Ær 


[X [H] 7] € 7] (support-*-ei-si*l ;81,e1;82, €2 ;... ; Si-1, 


区 间 的 算法 的 伪 代 码 如 下 : 
区 间 初 始 值 s， 起 始 时 传 入 的 s 值 为 1 
出 : 项 集 长 度 索 引 表 ILIT 


generateIntervals(root,s) 


hinaXiv 合 作 期 于 


C 
X4, $: 基于 事务 映射 区 间 求 交 的 高 


if ILIT --null 


new ILIT// 项 集 长 度 索 引 表 不 存在 ， 新 建 一 个 


childs = 


for node in childs// 遍 历 所 有 和 孩 


interval-(s,s-*node.count-1)//7 


save interval into I 


的 当中 


AIK 


8t A AE AERE 2 


root.childs;//3kHX root 节点 的 子 节点 
节点 


E 成 节点 的 区 间 


LIT// 将 区 间 保 存 到 ILIT 索引 的 指定 的 位 置 


generateIntervals(node，s)j;// 递 归 为 子 节点 生成 区 间 


号 = 


output ILIT 


s + node.count; / / X 39r 


区 间 初 始 值 


项 集 区 间 储 存 表 | sae | Sot | 
项 集 长 度 索引 表 L 项 集 哈 希 索 引 表 
M "P ne | 
频繁 2 项 集 
频繁 3 项 集 |. o 1 2 3 4 | 
频繁 4 项 集 
0 1 2 3 
频繁 5 项 集 7] 
频繁 6 项 集 0 2 2 3 4 5 | 
0 全 2 3 4 | 
o 2 2 3 4 5 
图 3 区 间 列 表 的 存储 结构 图 
UTM 算法 当中 使 用 后 一 种 方法 。 
区 间 来 储存 项 集 在 数据 集 当 中 的 分 布 信息 ， 3.3 区 间 求 交 


E NES 
LIAA 


类 算法 获取 


频繁 n-1- 


E 


三 
E 


繁 1 ERTE S FE E REIR KII 
集 和 支持 度 小 于 其 最 后 一 项 的 频繁 1 
例如 频繁 1- 项 集 为 a,b,c,d 频繁 2- 项 集 为 ab,ac,bc, 那 么 生成 的 候 
选 3- 项 集 为 abc,abd, acd, bdc; 前 一 种 方法 生成 的 候选 项 集 的 数 
量 要 少 于 后 一 种 ， 但 是 大 多 数 情况 下 频繁 n-1- 项 集 (23) 
比 频繁 1- 项 集 大 得 多 ， 在 频繁 n-1- 项 集 当 中 搜索 出 只 有 最 后 一 


项 不 相同 的 
扫描 ， 当 数 


项 集 和 频繁 1- 项 集合 


体 地 使 用 只 有 最 
| 如 有 


SEE 


EX abc,abd,acd; 另 一 种 是 使 
来 生成 候选 n 项 集 ， 其 中 频 


UH 


EPI, 


合并 时 使 用 频繁 n- 1-0 
项 集 来 生成 候选 n- 项 集 ， 


p: 
2 


两 个 项 集 也 是 不 小 的 一 笔 开 销 。 对 于 一 般 的 Apriori 
少 一 个 候选 项 集 就 意味 着 减少 一 次 对 整个 数据 集 的 


据 


Nar 


不 足 道 了 ， 


大 | 


一 个 候选 项 


只 是 意味 着 少 做 


个 


于 相 当 大 的 时 候 候选 项 集 生成 带 来 的 消耗 也 就 微 
此 前 一 种 算法 会 更 优 。 
区 间 集 的 求 交 ， 这 时 候 当 频繁 
n-1- 项 集 非 常 大 的 时 候 后 一 种 方法 的 效率 反而 会 更 高 。 


但 是 对 于 IITM 算法 , 减少 


在 


ER] UA 


Ej PIETM 算法 不 同 ITM 算法 采用 
区 间 。 从 3.1 节 中 描述 的 区 间 


候选 项 集 的 


区 间 存 储 的 其 实 是 包含 其 对 应 项 身 


区 间 求 交 的 方式 来 生成 
的 构造 过 程 可 以 得 知 ， 


EISE AS EB 


取 的 项 集 的 支持 度 即 是 该 


在 该 集合 当中 连续 的 编号 被 压缩 存储 在 


了 的 编号 的 集合 


驻 间 结构 当中 。 需 要 求 


一 旦 获取 到 


区 间 集 就 能 够 者 


区 间 集 当中 的 寻 


dis 


的 个 数 ， 所 以 


取 到 其 对 应 的 项 集 的 支持 度 。 在 


ITM 算法 通过 频繁 n-1 项 集 和 频繁 1 项 集 来 生成 候选 n- 项 集 


(nZ2) 。 设 有 频繁 n-1- 


w 


中 所 
区 间 的 交集 。 


的 候选 n- 项 集 为 C。C 对 应 的 
的 项 的 事务 编号 的 集合 , 即 A 对 


项 集 A, 频 繁 1- 项 集 B， 它 们 合 
包含 A 中 所 有 的 项 和 
应 的 区 间 和 B 对 应 的 


区 间 即 同时 


生成 


设 {A} = { supportA, [a 1-start,al -end] [a2-start,a2-end| —— [an-start, an-end] H 


为 A 对 应 的 
end] eM [bm-starbbm-en 


过 程 中 当 对 


区 间 集 


]} 为 B 对 应 的 区 间 和 外 


间 都 去 和 {B} 当 中 每 个 区 间 都 去 求 交 ， 


都 是 递增 的 ， 当 满足 一 定 条 件 时 划 


余 的 区 间 中 没有 和 该 {A} 


,{B}={supportB,[ bi-start,bi-end][b2-start,b2- 
长 通 过 分 析 发 现 区 间 求 交 的 
区 间 集 {A},{B} 求 交 时 , 没有 必要 将 {A} 当 中 每 个 
因为 {A},{B} 当 中 的 
it 可 以 判断 纪 } 当 中 的 剩 


区 
间 


区 


区 间 有 交集 的 


没有 必要 的 求 交 操作 。 当 


使 用 {A} 当 中 


的 一 个 


区 间 , 就 可 以 避免 很 多 次 


区 间 AiS[ai-start,ai- 


, 
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录用 稿 Z A, $: 基于 事务 映射 区 间 求 交 的 高 效 频繁 模式 挖 据 算法 


ond] 去 和 {B} 当 中 的 一 个 区 间 Bj=[bj-startbj-end] 求 交 时 的 方法 如 下 : 集 ， 对 每 个 频繁 2- 项 集 每 个 项 ， 将 它 分 别 与 频繁 1- 项 集中 排 在 
F aistart>bj-end,Ai、 Bj 没有 交集 , 使 用 Ai 去 和 Bi 的 下 一 个 区 长 的 最 后 一 个 项 后 面 的 项 相 结合 来 生成 候选 3- 项 集 。 使 
间 Bj 进行 求 交 ,并 记录 {A} 的 下 一 个 区 间 和 人 钙 } 进 行 求 交 的 起 用 同样 的 方法 来 使 用 频繁 k- 项 集 来 生成 频繁 k+1- 项 集 直 到 不 
始 位 置 next=j+1 。 若 aiend<bj-start, {B} 中 剩 下 的 区 间 都 比 aiena K, 再 能 产生 频繁 项 为 止 。 使 用 表 2 当中 的 频繁 1 项 集 生成 的 候选 
Ai 的 求 交 过 程 完成 ， 使 用 {A} 当 中 的 下 一 个 区 间 Aia-[adep- 2- 项 集 如 表 3 所 示 。 
starbairD-end] 来 和 {B} 求 交 , 并 且 可 以 跳 过 {B} 当 中 的 前 面 的 区 间 ， 


Xx 
w 

Y 
= 

EN 


Hh 】 
直接 从 Bnext=[bnext-start, Dnext-ena XA X. 间 开 始 求 pup 为 ai-start> bj- i E 
end,&(i+1)-start” &i-end Z ai-start, T 以 a(i+1)-start>bj-end o 因 为 {B} = 中 区 间 是 扫描 数据 集 一 
扫描 数据 集 
递增 的 所 以 Bj 区 间 以 及 其 前 面 的 区 间 都 小 于 arD-starb 因 此 不 可 : 
"o c Y. — 生成 频繁 1 项， yl 
能 和 区 间 Am 有 交集 ， 则 可 以 直接 从 Bj+1=[bG+1)-start,bG+1)-end] 即 集 [一 一] 
Bnext JF 台 求 交 o I 
ra - "A ect M EA r Mil bli = = 
x 间 集 生成 之 后 查找 4.1 当中 介绍 的 项 集 长 度 索 引 表 判断 使 用 频繁 1 项 ERREUR 
集 i 和 频繁 n-1 区 间 
该 长 度 的 项 集 的 项 集 哈 希 索引 表 是 否 已 经 生成 ， 如 果 没 有 生成 i | 
则 为 该 长 度 的 项 集 生成 项 集 哈 希 索引 表 ， 并 且 将 生成 的 区 间 集 e E RUPES 
" ; TEN i ^ K —— 区 间 集 
插入 到 哈 希 索 引 表 指定 的 项 集 区 间 储 存 表 当 中 ， 如 果 存 在 则 直 有 (122,4) 
选 n 项 集 k 前 
接 插入 。 t 
re v, "M T | ` m~~ 
区 间 求 交 的 核心 思想 伪 代 码 如 下 : EHE 
输入 : 待 求 交 的 两 个 区 间 集 a,b 
输出 :两 个 区 间 求 交 得 到 的 区 间 


merageIntervals (a,b) 


mergeList ={support=8;}// 初 始 化 合并 结果 区 间 列 表 Wm 
有 频繁 

next-1,i-1 项 集 

for a[i]= (ai-startyai-end) in a // 从 第 一 个 区 间 开 始 遍 历 a 的 每 Exe 3 


个 区 间 


DS 
DS 


4 ITM 算法 的 流程 


for b[j=next]=(bj-start,bj-end) in b // 从 第 next 个 区 间 开 始 


遍历 b 的 每 个 区 间 RI 根据 表 2 当中 的 频繁 1 项 集 生成 的 候选 2- 项 集 及 区 间 
if(ai-start>bj-end) 页 名 ”支持 度 ”区 间 
next = j+1// 更 新 next 值 DE 3 [3,5 
continue; DA 4 [1,4 
else if( ai-end<bj-start) DB 2 [1,2 
break;// 使 用 a 当中 的 下 一 个 区 间 和 b 直接 从 第 b 中 的 第 EA 2 [3,4 
next 个 区 间 开 始 求 交 EB [6,6 
intersection a[i] and b[j] save into mergList// 将 区 AB 2 [12 
间 a[i] 和 b[j] 求 交 并 将 结果 保存 的 mergList 当中 
update support in mergList // 更 新 支持 度 计数 
output mergeList// 输 出 区 间 集 求 交 结果 A 
3.4 IITM 算法 的 总 结 4.1 实验 数据 集 
ITM 算法 流程 如 图 4 所 示 ， 首先 使 用 2.2 节 中 的 方法 生成 本 文采 用 四 个 真实 数据 集 来 进行 实验 ， 实 验 数 据 集 的 基本 
FP 树 ， 然 后 使 用 3.1 节 中 的 方法 将 FP 树 当中 的 各 个 项 映射 到 ”信息 如 表 4 所 示 
区 间 当 中 。 接 着 使 用 生成 FP 树 时 得 到 的 频繁 1 项 集 来 进行 模 表 4 实验 数据 集 信息 
式 增长 ,首先 对 频繁 1- 项 集 按 支持 度 递减 排序 ,然后 遍历 频繁 1- 数据 集 名 称 ”事务 数量 ”事务 长 度 ”密集 程度 
项 集 ,使 用 每 个 项 和 排 在 它 后 面 的 项 进行 结合 生成 候选 2- 项 集 ， Mushroom 8124 22 较 密 集 
接着 使 用 这 两 个 项 对 应 的 区 间 进 行 求 交 生成 候选 2- 项 集 的 区 间 Comed 67557 42 A 
并 且 得 到 候选 2- 项 集 的 支持 度 来 判断 该 候选 2- 项 集 是 否 需要 被 Sa 
Spp. MUR 2- 项 集 生 成 后 ， 使 用 频繁 2- 项 集 和 频繁 1- 项 集合 并 Retail 88162 FEK jii 
来 生成 频繁 3- 项 集 ， 与 生成 频繁 2- 项 集 时 类 似 ,遍历 频繁 2- 项 
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录用 稿 吴 和 大， 等 : 基于 事务 映射 区 证 式 挖 气 


Mushroom 数据 集 能 够 从 UCI 机 器 学 习 仓库 当中 获得 。” 射 思 想 将 FP 树 当 中 的 各 个 项 映射 到 区 间 当 中 ， 并 提出 一 种 新 
(http://archive.ics.uci.edu/ml/) , Mushroom 数据 集 当中 不 同属 ”的 区 间 集 存储 结构 来 提高 区 间 集 的 查找 效率 ， 同 时 该 算法 提出 
性 的 值 在 数据 集 当 中 显示 的 标示 可 能 是 一 样 的 ， 因 此 本 文 在 开 ”了 一 种 新 的 候选 项 集 的 区 间 集 以 及 其 支持 度 的 获取 方式 ， 通过 
台 实 验 之 前 本 文 为 数据 集 当中 的 每 个 项 加 上 它 对 应 的 属性 标号 。 求 交 获取 候选 项 集 的 区 间 集 , 从 区 间 和 集 直接 获取 候选 项 支持 度 。 
例如 对 于 一 条 数据 : p,x,s,n,t,p,f,c,n,k,e,e,s,s,W, wp ,w, op, ksu ”该 方式 要 比 PIETM 算法 当中 的 通过 求 并 获取 候选 项 集 的 区 间 
本 文 为 它 加 上 属性 编号 之 后 为 1p,2x,3s,4n，5t，6p,7f， ”和 集 而 后 通过 容 斥 原理 获取 其 支持 度 的 效率 要 高 .IITM 算法 还 提 
8c,9n,10k,11e,12e,13s,14s,15w, 16w,17p,18w,190, | 20p21k, ”出 了 一 种 快速 的 区 间 集 求 交 方法 来 减少 区 间 集 求 交 过 程 当中 的 
22s,23u.Connect,Chess,Retail 数据 集 可 以 从 Chttp://fimi.ua.ac. be/ 匈 余 操作 ， 进 一 步 提高 了 效率 。 


data/) 中 获取 ,直接 使 用 数据 来 进行 实验 。 本 文 在 多 个 数据 集 上 对 Apriori、FP-Growth、PIETM IITM 
4.2. 实验 环境 四 个 算法 进行 了 比较 ,实验 结果 表明 在 不 同 的 支持 度 下 IITM $E 
实验 当中 的 算法 都 使 用 Java 在 eclipse 当中 实验 。 实 验 的 法 的 效率 都 要 高 于 Apriori、FP-Growth 以 及 PIETM 算法 。 
硬件 环境 为 2.4 GHz CPU,4 GB 运行 内 存 。 下 一 步 的 工作 包括 研究 该 算法 的 并 行 化 实现 ， 扩 展 到 
4.3 实验 结果 Hadoop, Spark 等 大 数据 处 理 平 台中 。 
本 文 实现 了 Apriori,FP-Growth,PIETM, 以 及 IITM 算法 。 在 
Mushroom 数据 集 上 在 支持 度 为 10%, 15%, 20%, 25%, 30%， Mushroom 
35%，40% 时 获取 PIETM 和 IITM 算法 的 运行 时 间 ， 其 中 因为 o E E 
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Apriori 算法 在 支持 度 较 低 的 情况 下 执行 效率 较 低 ， 因 此 仅仅 在 
25% 到 40% 的 支持 度 进行 了 实验 。 由 于 算法 的 执行 时 间 随 支持 
度 变化 较 大 ,因此 将 执行 时 间 采 用 对 数 坐 标 。 实验 结果 如 图 5 所 
示 ， 从 实验 结果 当中 可 以 看 出 FP-Growth、PIETM 和 IITM 算 
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法 要 明显 优 于 Aproiri 算法 。 当 支持 度 小 于 25% 的 时 候 从 图 中 本 
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可 以 看 出 ITM 算法 的 执行 时 间 要 明显 优 于 PIETM 和 FP- xim 


Growthb。 支 持 度 较 高 时 两 种 算法 差别 不 明显 ， 因 此 补充 了 在 较 
高 支持 度 下 Mushroom 数据 集 上 两 种 算法 的 比较 。 实 验 的 支持 
度 范围 在 30%~40%， 每 隔 2% 设 置 一 个 实验 点 。 在 支持 度 较 高 
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时 算法 的 运行 时 间 较 短 容 易 受 偶然 因素 的 影响 ， 因 此 本 文 每 个 Mushroom 
点 的 实验 共 进 行 5 次 ， 然 后 5 次 实验 得 到 的 结果 取 平 均值 来 作 站 
为 该 点 的 实验 结果 。 各 点 的 实验 结果 如 图 6 所 示 ， 从 图 中 可 以 
看 出 ， 当 支持 度 较 高 时 ，ITM 算法 也 会 优 于 PIETM 算法 以 及 f: < 
FP-Growth 算法 。 230 
于 Connect 数据 集 的 数据 量 较 大 ， 本 文 只 做 了 支持 度 较 fe 
高 环境 下 的 实验 。 因 为 Aproiri 算法 的 效率 过 低 ， 只 用 PIETM s 
和 ITM 以 及 FP-Growth 算法 来 来 进行 比较 ， 本 文 获取 了 支持 dn sd in m " s: 
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度 为 80%、85%、90%、95% 时 这 两 个 算法 运行 时 间 。 具 体 的 实 
验 结果 如 图 7 所 示 ， 从 图 中 可 以 看 出 ITM 的 运行 时 间 要 优 于 
PIETM 和 FP-growth 。 
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图 6” Mushroom 数据 集 上 高 支持 度 的 实验 结果 
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据 集 是 高 度 稀疏 的 数据 集 ， 本 文 在 低 支 持 度 下 对 三 种 算法 进行 is 
了 实验 对 比 ， 实 验 结果 表明 在 两 个 数据 集 上 ， 不 同 支持 度 下 OMS 
ITM 算法 都 要 优 于 另外 两 个 算法 。 有 具体 实验 结果 分 别 如 图 S. E ans 
9 所 示 。 ur 
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本 文 提 出 了 频繁 模式 挖掘 算法 ITM, 该 算法 是 在 PIETM 算 
法 的 基础 之 上 进行 改进 的 。 该 算法 参考 PIETM 算法 的 事务 映 


图 7 Connect 数据 集 上 的 实验 结果 
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